声学在线｜从专利视角解读语音识别产业的趋势与风险

2016-03-02 科大讯飞

前言

前几日，麻省理工学院（MIT）主办的科技期刊《麻省理工科技评论》公布了2016年十大突破技术，语音识别和自然语言理解相结合的语音接口技术名列榜单。今天，我们也简单的从专利视角来分析一下语音识别产业。

语音识别作为未来人机交互和人工智能领域的一个入口，自然一直备受关注，国内外语音识别产业的竞争也是愈演愈烈。无论是Nuance、微软、苹果、谷歌、Facebook等，抑或是科大讯飞，百度，思必驰等公司都在加速语音识别行业的布局。

然而，在当今的激烈市场竞争中，专利早已经成为企业竞争的一柄利剑。在2015年，中国国家知识产权局共受理发明专利申请110.2万件，同比增长18.7%，这已经是我国第5个年头专利受理量居世界首位。也许很多时候知识产权的价值还不能直接体现，但是其在提高公司效益，抢占市场，保持公司可持续发展的能力却不可小觑，特别是在抢占国内市场，竞争国际市场中；不仅如此，专利作为企业不得不向公众透露以获取独占权的关键信息，对其进行详细、周密、综合的分析，可以从中获得巨大的商业价值。

从专利申请量分布看语音识别产业的整体发展趋势

1952年贝尔实验室Davis等人研究实现了第一个可识别十个英文数字的语音识别系统——Audry，开启了语音识别研究的发展时代。中国的语音识别研究也是始于20世纪50年代的，中国科学院声学研究所利用电子管电路所搭建了国内第一个可识别10个元音的语音识别系统。语音识别的初期研究进展都是缓慢的，大规模的语音识别研究都是在70、80年代后，才取得了实质性的进展。

从ISI Derwent Innovations Index数据库平台收录的自1963以来全世界40多个专利机构的基本发明的数据来看，语音识别的相关专利共计有17792件。其中，1963年至1970年间，并没有语音识别方面的相关专利申请；从70年代开始，语音识别方面才陆续接受到了相关的专利申请，1970-1990年间，共计有881件相关的专利申请，这段时间主要是相关突破性技术的攻关期；进入90年代后，语音识别系统逐渐从实验室走向应用，语音识别方面的相关专利也进入了井喷时期，1990－2010年间，共计有12817件相关专利申请，专利的技术趋势也开始走向了实用，并迅速进入了产业化阶段；2010年后，语音识别的核心技术不断突破，逐渐进入相对成熟的阶段，逐年的专利申请量在千件以上，并维持稳态发展。

笔者认为这一趋势预示着：语音识别技术已经进入一个相对稳定成熟的状态，其作为人工智能入口的突破点正向着自然语言处理方面深入，而语音识别与产业化结合所衍生的一系列应用，正在迅速的进行验证与实现。也就是说，依托云计算、网络技术、硬件性能的迅速发展，以及深度学习，神经网络等理论进一步深入，已经极大的提高了语音识别技术的可用性与准确度，语音识别在人机交互中“听清楚”的任务已经基本完成，下一步的技术的突破应该会集中到“听得懂”方面，如果仍然在语音识别的阶段投入过多的精力与资源，进步与回报的空间将会非常有限。

我国的语音识别产业与全球语音识别产业发展基本上是保持同步的态势。根据CNKI自1985年收录的中国专利的数据来检索关键词语音识别，可以发现2000年前在中国申请的有关语音识别的专利累计157件，2000年后也出现了良好的增长态势，专利申请总量超过1000件，而2012年后，语音识别技术方面的专利申请量又实现了快速的发展，平均每年在500件申请量左右。这也表明：在语音识别的市场竞争中，国内的企业正在抓住机遇，紧密布局，积极应对，以期望在这场技术的博弈中赢得话语权，争得一席之地。

在此基础上，横向观察整个人工智能的入口，目前的技术趋势虽然语音识别仍然占整体专利布局的半壁江山，但是手势及体感和面部的方面的相关专利申请量也悄然上升。这是否意味着未来的人工智能，或者说人机交互方式不仅仅是语音入口，也许会是一种全新的方式？

2从专利分布情况看语音识别产业的潜在风险

众所周知，语音识别是一门交叉学科，其所涉及的领域非常广泛。从ISI Derwent Innovations Index数据库平台收录的数据看其IPC号分布，语音识别涉及领域是非常广泛的。涉及的技术主要包括人工智能、信号处理、模式识别、概率论与信息论、发声机理和听觉机理、神经网络等。涵盖的领域包括语音输入、语音辨识、语音翻译、语音控制等，渗透到工业、家居、通信、消费电子、汽车电子、医疗健康、家庭服务、交通运输等多个应用领域。中国专利申请中的语音识别专利其覆盖的范围主要集中在语音分析或合成、语音识别、语音处理、语音以及音频的编解码（G10L），电数字数据处理（G06F），电话通信（H04M），这三个领域专利累积比例高达80%。从覆盖的领域范围中，可以分析出未来语音识别的应用将会主要集中在利用语音识别输入代替传统的人机交互方式，并通过人机智能对话来提升用户体验，协助用户进行决策中，以及语音通信，通过声音对电子产品进行操作控制，如智能家居、汽车、玩具、控制仪器等。

除了覆盖的领域，从语音识别专利的分布情况中，我们还要来看一下最为重要的权利人的分布状况。以ISI Derwent Innovations Index数据库检索语音识别专利的结果来看，累积专利申请量方面，前五位为IBM，NEC，微软，Nuance和东芝，分别为749件，508件，506件，415件，406件，证明巨头形成的专利防御攻势仍然迅猛，而后起之秀也来势汹汹，2010－2015年，苹果布局专利25件、亚马逊布局专利33件。而中国的语音识别企业专利布局还主要是在国内，国际领域的专利布局情况和国外企业对比，确实还存在巨大差距，所以未来国内语音识别产业进军国际市场恐怕会遇到一些小未知。

接下来，我们再看一下国内语音识别产业总体的专利分布情况。从不同国家在华申请的专利数量来看，中国申请人仍占主导，约占总量的75%，其次是美国申请人，约占总量的13%、再次就是日本和韩国申请人，约占11%。

从国内语音识别专利的专利权人来看，国内企业的专利布局还不具有突出的优势。排名前5的国外专利权人是微软，三星，IBM，松下和三菱，当然这几个国际电子巨头在技术上有较强的研发实力，自然占据了较大的申请量。从时间方面来观察，微软与三星的语音识别专利呈上升趋势，IBM和三菱呈下降趋势，而松下则相对稳步持平。国内专利权人来看，主要是华为、中科院声学所和自动化所、清华大学、科大讯飞和联想在数量上占有优势，其中，华为的语音识别技术主要是在移动通信领域，清华大学主要是针对汽车电器的语音识别控制方案。而国内的语音识别的后起之秀，在近几年的专利申请上也呈现出赶超爆发的趋势。

以上我们可以看出，国内的语音识别技术具备一定基础，技术实力也旗鼓相当，但是专利数量与专利布局方面略落后于国外企业。不过，从国内企业专利申请量的增长趋势来看，加之国内语音识别领域也涌现了越来越多的新兴力量，随着竞争日趋激烈，与国外企业的差距会不断缩小。在竞争与制衡中，专利是重要的筹码，国内企业要在国外企业完成在华语音识别领域布局前，构建起有效的专利保护屏障以及专利预警的机制，才会拿到语音识别领域的话语权，避开潜在风险。

↓↓↓ 点击以下链接，了解更多

CCTV｜人机大战上演巅峰对决

“用人工智能改变世界春晓行动重磅启动！” ——科大讯飞董事长刘庆峰内部年会讲话

校招 | 2016春季校招大戏即将上演邀你玩转最酷的人工智能

国产机器人优必选亮相春晚科大讯飞提供技术支持